iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0

今天主要著重在清理轉換後的數據,並進行驗證。

基因代號轉換後,我需要對結果進行清理和驗證,因為有些基因雖然有 Symbol ID,但其在 Ensembl 上並未被定義,具體原因這邊不討論;而今天的工作重點是檢查哪些基因未能成功轉換,並將這些未成功轉換的基因數據清理掉。同時還需要對成功轉換的結果進行驗證,以確保數據的完整性。

首先我會檢查數據中的缺失值,也就是未能成功轉換的基因會在 ensembl_gene_id 列中顯示為空值。這些數據需要被清理掉,以避免後續的處理出現錯誤。

# 清理沒有成功轉換為 Ensembl Gene ID 的基因
df.dropna(subset=['ensembl_gene_id'], inplace=True)

在上面這段 Code 中,我使用 dropna 函數來刪除 ensembl_gene_id 中存在空值的行。這樣做可以確保只保留成功轉換的基因數據,並清理掉那些無法轉換的基因。

接下來,需要檢查轉換結果的準確性,方式可以通過檢查 DataFrame 中的前幾行來確認轉換是否成功,並確保數據格式正確:

# 輸入想查看的前幾行數據
print(df.head()) 

head 函數允許快速查看 DataFrame 的前幾行數據,這樣就能夠確認基因 Symbol ID 和 Ensembl Gene ID 是否已經正確比對。

今天所做的數據清理和驗證對於後續的數據處理非常重要。只有在保證數據的完整性和正確性下,才能在後續的爬蟲和計算過程中避免不必要的錯誤,同時也為下一步的爬取基因位置訊息做好準備。


上一篇
Day5:執行基因代號轉換
下一篇
Day7:理解 Ensembl 網站的基因詳細頁面結構
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言